Pandas の概要

Pandas はデータ分析やディープラーニングなどでよく使用される Pyton の拡張モジュールです。

次のような機能を提供しています。

カスタマイズされたインデックスを使用した、高速で効率的なDataFrameオブジェクト

さまざまなファイル形式とのデータの読み書きをするためのツール

データの調整と欠落データの統合処理

日付セットの再形成とピボット

大規模なデータセットのラベルベースのスライス、インデックス作成、サブセット化

データ構造の列は削除または挿入

集計と変換のためにデータでグループ化

データの高性能なマージと結合。

時系列データの処理

データの可視化プロット（可視化モジュールmatplotlibを利用）

Jupyter Notebook との高い親和性

Pandas のデータ構造

pandasのデータ構造には２つのもにがあります。

Series：リストのような1次元データ

DataFrame：表のような2次元データ

これらのデータを加工や結合、抽出などの処理する多数の関数やメソッドが提供されています。

また、pandasはCSVやJSONなどの多くのファイルフォーマットからデータを読み込んだり、データベースからデータを取り込んで、DataFrameに変換することができます。

また、DataFrame をさまざまなフォーマットで出力することもできます。’

インストール

拡張モジュールなので次のようにインストールします。

code: bash condaの場合

$ conda install pandas

code: bash pipの場合

$ pip install pandas

Pandas の利用方法

Pandas を利用するためには、次のようにインポートします。

code: python

import numpy as np

import pandas as pd

ここで、as xx で別名にしています。xxには予約語以外は自由になるのですが、この組み合わせが、ほとんどです。